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摘要 : [ 目的 ] 解决 传统 项 目 相似 性 度量 方法 必须 依赖 


于 共同 评分 项 ,及 传统 方法 在 稀 朴 数据 集中 预测 准确 性 不 


高 的 问题 。【 方法 ] 将 信号 处 理 领 域 的 KL 散 度 引 入 项 目 相似 性 的 计算 中 , 利用 评分 值 的 概率 密度 分 布 计算 项 目 
相似 性 , 可 更 有 效 地 发 现 目标 项 目的 相似 邻居 项 目 。[ 结果 ] Æ MovieLens 数据 集 上 的 实验 结果 表明 , 该 算法 的 


推荐 综合 值 Fl 超过 0.65, 在 预测 有 效 性 、 预 测 误差 和 推荐 准确 性 等 方面 的 评测 结果 均 明 显 优 于 当前 常用 的 项 目 


相似 性 方法 。[ 局 限 】 只 考虑 了 项 目 评分 值 的 比率 , 未 充分 利用 项 目的 绝对 评分 值 。[ 结论 ] 算法 有 效 地 利用 了 
数据 集 内 的 评分 信息 ,， 较 好 地 克服 了 数据 的 稀 琉 性 问题 ， 具有 很 好 的 应 用 价值 。 


关键 词 : 项 目 相 似 性 ”协同 过 滤 ”KL BUE ”推荐 算法 
分 类 号 : TP391 G350 


1 引 Ë 


随 着 互联 网 和 移动 互联 网 的 普及 与 深度 应 用 , 信 
息 量 激增 。 如 何 解 决 信息 过 载 , 满足 用 户 的 个 性 化 需 


法 是 该 领域 研究 中 的 一 种 非常 有 效 的 方法 ， 得 到 越 来 
越 多 的 重视 。1992 年 Goldberg 等 由 首次 提出 了 协同 过 
滤 的 概念 ， 目 前 基于 协同 过 滤 的 推荐 系统 已 在 社交 网 
络 和 电子 商务 等 领域 广泛 应 用 F。 协同 过 滤 推 荐 算法 
主要 是 通过 在 大 量 用 户 群 中 找到 与 当前 用 户 相似 的 用 
户 ， 以 这 些 相 似 用 户 的 偏好 为 依据 ,为 当前 用 户 推荐 
产品 或 者 服务 。 

目前 ,主流 的 协同 过 滤 推 荐 算法 分 为 基于 用 户 的 
协同 过 滤 外 和 基于 项 目的 协同 过 滤 两 类 。 在 推荐 系 
统 中 ,所 采用 的 用 户 ( 项 目 ) 相 似 性 度量 方法 会 直接 影 
响 推 荐 质量 ,传统 的 基于 用 户 的 相似 性 度量 方法 外 ,如 
余弦 相似 性 、 皮 和 尔 逊 相关 系数 等 ,虽然 取得 了 巨大 的 
成 功 ,但 随 着 应 用 环境 的 变化 和 深入 ,， 稀 玻 性 和 冷 启 
动 问题 日 益 凸 显 出 来 。 为 了 解决 这 些 问题 ,一 些 新 的 


相似 性 方法 被 提出 。Luo 等 09 通 过 结合 两 种 相似 性 计 
算 方 法 解决 稀 琉 数据 集 问 题 ， 提 出 基于 惊异 向 量 的 局 
部 用 户 相 似 性 和 全 局 用 户 相 似 性 。Ahnm 提出 一 个 启 
发 式 的 相似 性 计算 方法 PIP。 PIP 方法 虽然 在 某 种 程度 
上 较 好 地 解决 了 冷 启动 问题 , 但 在 稀 玖 的 数据 集中 ， 
由 于 用 户 共 同 评分 的 项 目 很 少 会 导致 该 方法 计算 的 结 
果 不 够 准确 。Bobadilla 等 (9 提出 的 JMSD 方法 是 将 
Jaccard ^! fl, MSDI 两 种 方法 相 结合 。 该 方法 弥补 了 
Jaccard 未 考虑 绝对 评分 值 和 MSD 忽略 了 共同 评分 项 
目 比 例 的 不 足 。Arwar 等 四 提出 一 系列 基于 项 目的 协同 
过 滤 推 荐 算法 ,并 在 实践 中 取得 了 较 大 的 成 功 。 然 而 ， 
当 用 户 间 的 共同 评分 项 目 较 少 时 ， 上述 方法 均 存在 推 
荐 质量 不 高 的 问题 即 稀 琉 性 问题 。 为 了 充分 利用 每 
个 项 目的 评分 , Patra 等 5 提出 基于 巴 氏 系 数 的 相似 性 
度量 方法 。 该 方法 从 概率 密度 分 布 的 角度 计算 项 目 间 
的 相似 性 ,弥补 了 传统 相似 性 度量 方法 需要 依赖 于 
共同 评分 项 目的 不 足 ， 对 解决 稀 朴 性 问题 有 积极 的 
作用 。 

本 文 借鉴 文献 [15] 从 概率 密度 分 布 角度 计算 项 目 
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间 相 似 性 的 思路 , 将 信息 论 中 的 KL 散 度 引入 到 相似 
性 计算 中 ， 提 出 一 种 基于 项 目 概率 分 布 的 协同 过 滤 推 
荐 算法 .基于 KL 散 度 计算 不 同 项 目 间 的 相似 性 ， 有效 
避免 了 已 有 方法 必须 依赖 于 数据 集中 共同 评分 项 的 不 
足 ;利用 相似 性 预测 用 户 对 未 评分 项 目的 评分 ; 根据 预 
测 值 , 产生 推荐 数据 集 。 本 方法 能 有 效 地 解决 协同 过 
滤 算 法 中 普遍 存在 的 数据 集 稀 玻 性 问题 有 很 好 的 实 
际 应 用 价值 。 


2 ”项目 相似 性 度量 方法 


在 推荐 系统 中 , 用户 评分 数据 可 以 表示 为 如 表 1 

所 示 的 评分 矩阵 Rems。 m 为 用 户 个 数 , n 为 项 目 个 数 ， 
fui 为 第 个 用 户 对 第 i 个 项 目的 评分 值 。 

3:1 用 户 /项 目 评分 矩阵 


User/Item li h T I; Pm In 
Ui Tu T2 zz Tij s Tin 
U T21 I22 Ij Iu 
U Tu Tu2 Tij É 
Um Imi Im2 ee Tmj ee Tmn 


相似 性 计算 是 推荐 算法 中 最 为 重要 的 一 个 步骤 。 
常用 的 项 目 相似 性 度量 方法 主要 有 : 余弦 相似 性 、 修 
正 余 弦 相似 性 、 皮 尔 逊 相关 系数 以 及 约束 皮尔 逊 相关 
系数 中。 

(1) 余弦 相似 性 (COS) 

在 基于 项 目的 协同 过 滤 推荐 算法 中 , 项 目 之 间 余 
弦 相 似 性 的 计算 公式 如 下 : 


> Cuixm) 
ueU (1) 
X (CR 1x Co) 
其 中 ,i,j 为 两 个 不 同 的 项 目 , U 表示 已 对 项 目 i1 和 
j 共同 评分 的 用 户 集 ,u 表示 单个 用 户 。 
(2) 修正 余弦 相似 性 (ACOS) 
余弦 相似 性 中 没有 考虑 不 同 用 户 之 间 的 评分 差异 
性 。 在 修正 余弦 相似 性 中 , 通过 减 去 项 目的 平均 评分 
值 修正 此 差异 性 。 对 应 的 计算 公式 如 下 : 
> i -Di -DH 


ueU 2) 
2,0 -5° 2s -5 


sim(i, j) = 


sim(i, j) = 


现代 图 书 情报 技术 


其 中 , TRS i 个 项 目的 平均 评分 值 。 

(3) 皮尔 逊 相关 系数 (PCOC) 

该 方法 通过 减 去 用 户 的 平均 评分 值 进行 相似 性 结 
果 修 正 , 对 应 公式 如 下 : 

È Cui -n)nj-n) 

> -X» | > -7 本 

志 表示 第 个 用 户 对 其 所 评 项 目的 平均 值 。 

(4) 约束 皮尔 逊 相关 系数 (CPC) 

由 于 皮尔 逊 相关 系数 没有 考虑 用 户 对 项 目 评分 好 
坏 的 影响 ， 从 而 导致 用 户 间 评分 看 似 相似 (或 不 同 )， 
但 实际 的 相似 度 却 很 低 (或 很 高 )。 约 束 皮 尔 逊 相关 系 
数 就 是 为 了 避免 该 问题 而 提出 的 ， 其 公式 为 : 
X (mi — Thed Daj — Thed) 
ueU (4) 


| (tui 一 了 ed ja IZ (ni 一 ed y 

Hh, ma 表示 评分 区 间 的 中 值 。 

上 述 相似 性 度量 方法 虽然 广泛 应 用 在 推荐 算法 
中 , 但 随 着 应 用 环境 的 变化 和 深入 ,其 局 限 性 也 逐步 
显现 出 来 ， 主 要 表现 为 : 不 适宜 处 理 非 线 性 的 情况 ; 
不 能 很 好 地 解决 数据 稀 玻 性 问题 。 
3 推荐 算法 

本 文 方法 包括 两 个 主要 部 分 : 基于 KL 散 度 的 项 
目 相 似 性 计算 ; 产生 推荐 。 相 似 性 计算 是 算法 最 核心 
的 部 分 , 笔者 将 KL 散 度 引 入 到 相似 性 计算 中 ， 有 效 提 
高 了 项 目 间 相 似 性 的 适用 性 和 准确 性 。 
3.1 基于 KL 散 度 的 相似 性 

(1) KL BUE 

KL it (Kullback-Leibler Divergence) X. f KL HE 
Bj, 是 信息 论 中 统计 变量 间 独 立 性 的 重要 指标 。 从 概 
率 分 布 的 角度 衡量 两 个 变量 之 间 的 距离 0%"。 在 连续 
区 间 D P, 假设 p! 和 p; 分 别 为 两 个 不 同 的 概率 密度 函 
数 , 则 KL 散 度 定义 为 


D(p, || P2) = | plCoOlog 
D 


sim(i, j) = 


sim(i, j) = 


p(x) (5) 


p; Q9) 
对 于 离散 变量 , KL 散 度 定义 为 : 


D 一 1 pi(x) 6 
(pi ll p2) 2,0 085 pix) (6) 


HHP, o,09-0, 0509-0, 且 规 定 0log, Z? -0. 
p 


KL 散 度 的 优势 在 于 可 区 别 几 何 距 离 难 以 区 别 的 
对 象 。 假 设 图 1 中 的 对 象 1 和 对 象 2 分 别 服 从 正 态 分 
布 和 均匀 分 布 ， 且 两 个 对 象 的 样本 点 之 间 存 在 大 量 的 
重合 。 显 然 , 使 用 几何 距离 难以 区 分 两 个 对 象 。 然 而 ， 
从 概率 分 布 角度 , 使 用 KL 散 度 却 能 高 效 地 区 分 它们 。 


图 1 满足 不 同 概率 分 布 的 不 同 对 象 示例 09| 


(2) 相似 性 计算 

(DKL 相似 性 

在 用 户 评分 矩阵 中 ,对 任意 两 个 项 目 1 和 j， 将 所 有 用 户 
对 它们 的 评分 视 作 两 个 变量 序列 ， 可 得 项 目 ij 与 j 的 KL 距离 
D(, j) 的 计算 公式 如 下 : 


DG, j) = DEP; | p) = 1 pi, log; A (7 


v=l Jv 


其 中 ，pi 为 项 目 i 的 概率 密度 函数 ，r 为 评分 的 最 大 值 ， 
Pis 2 为 项 目 i 中 评分 值 为 v 的 比率 , H 是 所 有 用 户 对 项 
1 


目 i 评分 的 个 数 ,加 是 所 有 用 户 对 项 目 i 评 分 值 为 V 的 个 数 。 
根据 KL 距离 ,给 出 基于 KL 的 相似 性 计算 公式 如 下 : 
KL(i, j) = sim(i, j) = De (8) 
其 中 , KL 距离 越 小 , 项 目 间 相似 性 越 高 。 
基于 KL 的 相似 性 计算 方法 不 依靠 于 共同 评分 项 ,适用 
于 一 些 传统 相似 性 方法 无 法 使 用 的 情形 , 现 以 一 个 示例 说 明 
本 文 方法 的 优势 , 设 项 目 i 和 j 的 评分 分 别 为 : 19(1,0,2,0,3,0)" 
和 j=(0,3,0,2,0,1)'， 评分 区 间 为 1-3。 由 于 没有 任何 用 户 同时 
对 两 个 项 目 同时 评分 ， 因此 已 有 的 一 些 方法 (如 余弦 相似 性 
等 ) 无 法 计算 两 项 目的 相似 性 。 然 而 , 根据 公式 (8)， 可 以 得 到 
项 目 i 和 j 的 KL 相似 性 如 下 : 
KLG,)) - —;,— 
1+ 9 Piv log; f= 


v=l Jv 


HE xlog,'+ : xlog,/ H : xlog') 
@) 平 滑 处 理 
为 了 确保 KL 距离 能 够 适用 于 用 户 评分 矩阵 ， 即 保证 概 
率 密 度 函 数 p(X) 均 大 于 0, 对 其 进行 平滑 修正 如 下 : 


J 
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p(x)+6 
1+6|D| 
XP, 0—8-1, [D| 表示 离散 区 域 中 所 有 取 值 的 个 数 。 
平滑 处 理 后 ,误差 分 析 如 下 : 


p(x) +8- p(x) - 8pGO|D| 
1+6|D| 


1e% |D] | — 1! [D|-1 
1/8+|D| | |1/8+|D|? 1/8«|p| 


当 6 值 足够 小 时 , 平滑 处 理 后 能 提供 任意 精度 的 相似 
性 估计 。 

@ 对 称 性 修正 

由 公式 (7) 可 知 ，KL 距离 不 具有 对 称 性 ， 即 
D(p; || pj) * D(p; lp) 。 将 其 表示 两 个 项 目 间 的 距离 时 需要 
具有 对 称 性 。 为 此 ,对 KL 距离 进行 对 称 性 修正 如 下 : 

D,.j) = (D(p; I| pj) + D(p; || pi))/2 (10) 

在 计算 项 目 间 的 KL 相似 性 时 ， 用 DG, ) 取 代 公 式 (8) 中 
的 DG, j). 
3.2 ”产生 推荐 

(1) 形成 最 近邻 居 集 。 根 据 公式 (89) 计 算 任 意 项 目 
之 间 的 相似 性 值 ， 进 而 得 到 项 目的 相似 性 和 矩阵 [Sij]sw， 
如 下 所 示 : 


(9) 


P(X) = 


[PGO - pGo| — 


Si S12 Dem Sin 
s= S21 825 w Syn 
Sui Sn 2 De Sun 


此 处 , Si (1«isn, L&jsn) H i Fj 之 间 相 似 
性 值 。 
根据 项 目 相 似 矩 阵 S, 可 得 到 项 目的 NN 个 最 近邻 
居 项 目 集合 N={i1,i…,in}, 且 集合 内 部 元 素 之 间 的 排 
序 满足 Sii TS 
D 预测 值 计算 。 通 过 集合 Ni 中 项 目的 评分 , 计 
算 目 标 用 户 u 对 项 目 i 的 预测 值 Pus 对 应 的 公式 如 下 : 
È Sijn 


Pui zE : Q1) 


其 中 ,rj 为 用 户 u 对 项 目 j 的 评分 。 

(3) Top-N 推荐 。 根 据 预测 值 , 可 以 做 Top-N 推荐 ， 
即 取 预 测 值 最 高 的 前 N 个 项 目 作为 用 户 的 推荐 项 目 集 。 
4 算法 分 析 


(1) fius tEA PT 
传统 的 相似 性 计算 方法 , 如 ACOS, PCC 和 CPC 
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等 , 它们 的 局 限 在 于 “必须 依赖 于 共同 评分 项 ”， 即 至 
少 需 要 一 个 用 户 对 项 目 i 和 j 同时 进行 评分 ,一 旦 没有 
共同 评分 项 , 传统 的 方法 将 无 法 计算 这 两 个 项 目 间 的 
相似 性 。 这 种 情况 在 稀 玻 的 数据 集中 表现 尤为 突出 。 
本 文 提 出 的 方法 是 利用 项 目 i 和 j 的 评分 值 的 概率 分 布 


算法 的 性 能 , 将 数据 集 划 分 为 80% 的 训练 集 和 20% 的 
测试 集 。 
52 评价 指标 

推荐 算法 的 评价 主要 包括 预测 准确 性 、 推 荐 准确 
性 和 计算 有 效 性 三 个 方面 中。 常用 的 预测 准确 性 指标 


为 平均 绝对 误差 (MAE) 和 根 均 方 误差 (RMSE)， 公 式 
如 下 : 


进行 相似 性 计算 , 无 须 依赖 共同 评分 项 ,而 且 对 用 户 
评价 项 目的 数量 也 没有 要 求 。 因 此 ,即使 是 在 稀 政 的 
数据 集中 , 采用 本 文 方法 也 能 获取 必要 的 信息 , 完成 
项 目 相似 性 的 计算 。 所 以 , 本 文 提 出 的 方法 能 更 好 地 MAE - 2) 
MEXT HEFE TEE P A ETE BC Rn PE [RE s 
(2) 适用 性 分 析 
m 本 文 提 出 的 相似 性 方法 是 以 评分 值 的 概率 密度 为 
~ 基础 ,通过 KL 散 度 计算 项 目 间 的 相似 性 ,该 方法 对 数 
"T 据 集 中 数据 的 分 布 没有 做 任何 假设 。 然 而 , 一些 传 统 
^ 的 相似 性 计算 方法 通常 假设 两 变量 间 存 在 线性 关系 ， ”指标 的 值 越 小 表示 预测 的 准确 性 越 高 。 
= 其 适用 范围 存在 局 限 性 。 就 用 户 评分 数据 集 来 说 ,其 常用 的 推荐 准确 性 度量 指标 为 : 准确 率 (Precisiom)、 
e 中 的 数据 是 离散 的 , 数据 之 间 往 往 不 存在 线性 关系 。 召回 率 (Recall 和 F1 值 ， 对 应 的 计算 公式 如 下 : 


(13) 


HP, ra 和 名 分别 是 用 户 u 对 项 目 i 的 实际 评分 
值 和 预测 评分 值 ，n 代表 待 预测 项 目的 个 数 。 这 两 项 


Too 若 基 于 线性 假设 进行 预测 ,必然 难以 获得 好 的 结果 。 Precision == Ce D "T 
站。 本文 方 法 对 数据 间 是 否 存 在 线性 关系 没有 任何 要 求 ， 
q n(I I, 

因此 具有 更 好 的 适应 性 ， 既 适合 处 理 线性 数据 关系 的 Reoal- PPP S) as 


问题 , 也 适合 处 理 非 线 性 数据 关系 的 问题 。 

(3) 信息 利用 率 分 析 

本 文 方法 不 受 共同 评分 项 的 限制 , 在 计算 评分 项 
的 概率 密度 时 , 会 使 用 评分 和 矩阵 中 所 有 的 用 户 评价 信 
息 。 因 此 , 本 文 算法 对 评价 信息 的 利用 率 高 于 其 他 相 
似 性 计算 方法 。 高 的 信息 利用 率 可 以 避免 预测 结果 的 
片面 性 , 防止 预测 结果 出 现 大 的 波动 ， 从 而 提高 了 本 
文 算法 的 整体 性 能 。 


5 实验 结果 与 分 析 


5.1 数据 集 

采用 公开 的 数据 集 MovieLens" 作 为 本 文 算法 测 
试 和 验证 的 数据 集 , 包括 706 个 用 户 对 8 570 部 电影 的 
评分 , 共有 评论 记录 100 023 条 。 从 该 数据 集中 选取 了 
59 775 条 评分 作为 实验 数据 集 ， 包含 706 个 用 户 和 813 
部 电影 , 评分 范围 为 1-5, 且 每 部 电影 被 用 户 评分 至 少 
25 Ro KERERE EN 10.4%。 为 了 测试 推荐 


Dhttp://www.grouplens.org. 
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Fl= 2x Precision x Recall 


(16) 


Precision + Recall 

其 中 , I 为 预测 推荐 的 项 目 个 数 , I 为 真实 的 推荐 
项 目 个 数 ,Fl 值 是 综合 了 准确 率 和 召回 率 的 评价 指标 ， 
其 值 越 大 ,说明 推 荐 的 综合 性 能 越 好 。 在 本 文 实验 中 ， 
以 大 于 用 户 平均 评分 值 作为 项 目 推荐 的 标准 , 据 此 确 
定 推 荐 的 项 目 列表 。 

此 外 , 计算 有 效 性 的 评价 指标 为 : 有 效 预测 数 和 
完美 预测 数 。 有 效 预 测 数 是 指 根据 预测 值 的 计算 公式 ， 
能 够 从 用 户 评分 数据 集中 成 功 算出 预测 值 的 总 数量 。 
完美 预测 数 是 指 计 算出 的 预测 值 与 真实 评分 值 相 同 的 
总 数量 。 

5.3 ”结果 分 析 

为 了 与 本 文 算法 进行 对 比 , 对 ACOS .PCC 和 CPC 
等 方法 进行 对 比 测试 。 同 时 ,由 于 不 同 的 邻居 个 数 K 
对 测试 结果 有 不 同 的 影响 , 因此 , 在 本 文 的 实验 中 也 
对 其 进行 考虑 。 
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(1) 有 效 预测 数 和 完美 预测 数 分 析 

在 实验 数据 集 上 ,预测 的 项 目 总 数 为 12 017 个 。 
由 图 2 可 知 , 不 管 计算 过 程 中 选择 的 邻居 个 数 K 如 何 
变化 , 本 文 算法 的 有 效 预测 数 和 完美 预测 数 均 最 高 。 
这 说 明 本 文 算法 比 ACOS, PCC 和 CPC 等 方法 的 适应 
性 更 好 , 可 以 在 更 多 的 数据 条 件 下 计算 出 有 效 的 预测 
值 且 准确 性 更 高 。 
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(b) 
图 2 ”有效 预测 数 与 完美 预测 数 的 比较 结果 


(2) MAE 和 RMSE 

MAE 和 RMSE 主要 反映 的 是 预测 评分 值 与 实际 
评分 值 之 间 的 偏差 。 在 图 3 中 , 可 以 看 出 本 文 算法 的 
MAE 和 RMSE 优 于 各 传统 的 相似 性 方法 ， 两 种 误差 值 
在 整体 上 都 比 其 他 相似 性 方法 更 低 。 随 着 K 值 的 增加 ， 
MAE 和 RMSE 均 缓 慢 减 少 ,总 体 的 范围 为 : 0.739 
MAE x0.779, 0.974 & RMSE x 1.049, 这 表明 本 文 算法 
的 推荐 精度 较 好 。 
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图 3 MAE fe RMSE 的 结果 比较 

(3) Precision, Recall 和 了 Fl 

在 图 4(a) 中 , PCC 方法 的 准确 率 最 高 ， 其 次 为 本 文 
方法 , 且 两 者 之 间 相 差 不 大 。 在 图 4(b) 中 , 无 论 K 值 
如 何 变化 , KL 相似 性 方法 的 召回 率 均 明显 优 于 其 他 方 
ik. Fl 值 是 综合 考虑 准确 率 和 召回 率 的 指标 。 从 图 
4(c) 可 知 ,本 文 算法 的 Fl 值 明 显 优 于 其 他 方法 。 综 上 
分 析 可 得 本 文 算 法 具有 更 好 的 推荐 性 能 。 
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图 4 Precision, Recall fe F1 值 的 结果 比较 


6 结 语 


本 文 将 信息 论 中 的 KL 散 度 引 入 到 协同 过 滤 算 法 
的 相似 性 计算 中 , 提出 基于 KL 相似 性 的 协同 过 滤 推 
荐 算法 。 该 方法 利用 评分 值 的 概率 密度 分 布 计算 项 目 
之 间 的 相似 性 。 其 优势 在 于 它 对 用 户 的 项 目 评价 数量 
没有 要 求 ， 也 不 要 求 用 户 同 时 对 多 个 项 目 进行 评分 。 
限制 条 件 的 放宽 ， 意 味 着 本 文 方法 能 找到 更 多 满足 其 
计算 条 件 的 评分 数据 ， 即 便 是 在 稀 琉 数据 集中 也 能 
效 完成 预测 值 的 计算 和 项 目 推荐 。 因 此 , 与 传统 的 相 
似 性 计算 方法 相 比 , 本 文 方法 更 好 地 解决 了 数据 稀 玻 
性 问题 。 在 MovieLens 公开 数据 集中 的 实验 表明 , 本 
文 基于 KL 相似 性 的 协同 过 滤 算 法 优 于 其 他 类 似 方法 ， 
有 效 提 高 了 整体 的 推荐 质量 。 
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A Collaborative Filtering Recommendation Algorithm Based on Item 
Probability Distribution 


Wang Yong! DengJiangzhou! Deng Yongheng! Zhang Pu? 
(Key Laboratory of Electronic Commerce and Logistics, 
Chongqing University of Posts and Telecommunications, Chongqing 400065, China) 
"(College of Computer Science, Chongqing University of Posts and Telecommunications, Chongqing 400065, China) 


Abstract: [Objective] This study tries to reduce the reliance of co-rated items in the traditional item similarity 
measurements and then improve the prediction precision of the sparse datasets. [Methods] First, we modified the 
Kullback-Leibler (KL) divergence from the signal processing domain to compute item similarities. Second, we 
calculated the similarity with the help of density distribution of ratings, and then found the neighboring items more 
effectively. [Results] We examined the proposed algorithm on MovieLens and the achieved F1 measure value was over 
0.65. The accuracy, efficiency and error rates of the new prediction mechanism were much better than traditional item 
similarity measurements. [Limitations] The proposed algorithm considered the density of ratings, however, it did not 
utilize the absolute value of item ratings. [Conclusions] The proposed algorithm effectively uses the rating information 
to address the sparse dataset issue. Thus, it has strong potentiality in practice. 


Keywords: Item similarity | Collaborative filtering | Kullback-Leibler divergence Recommendation algorithm 
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